iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
生成式 AI

nutc_imac_Agent拼裝車系列 第 2

Day 02 什麼是大語言模型 ?

  • 分享至 

  • xImage
  •  

大型語言模型 (Large Language Model, LLM)

定義

  • 大型語言模型是包含非常多參數(通常為十億到數萬億參數)的深度神經網路,專門用於處理語言。
  • 通常以龐大的文本數據為訓練資料,用自監督學習或類似方式學習語言的規律與語義。

運作方式

  1. 預訓練 (Pre-training)
    在大規模未標註文本上訓練,讓模型學習語言的語法、語義、字詞共現等統計特性。

  2. 架構 (Architecture)
    多數使用 Transformer 架構,包括注意力機制(attention)來捕捉長距離依賴(long-range dependencies)。

  3. 微調/調校 (Fine-tuning / Alignment / Prompting)
    在預訓練後,可針對特定任務(如問答、翻譯、摘要等)進行微調;或使用指令/提示 (prompt) 方法調整回應風格與效果。

  4. 使用階段 (Inference / 使用者互動)
    使用者給出提示(prompt),模型根據訓練中學到的分布來生成文字或回答問題。

優點與應用

  • 能生成各類文本:報告、故事、故事梗概、詩歌等。
  • 支持語言翻譯、文字摘要、校對、內容生成等多種任務。
  • 可以作為聊天介面/問答系統,提供互動式服務。

挑戰與限制

  • 幻覺 (Hallucination):有時候會生成看似合理但實際不正確或無來源的資訊。
  • 偏見與歧視:因為訓練資料本身可能包含偏見,模型可能會複製或放大這些偏見。
  • 資源消耗高:訓練與推論都需要大量運算資源與能量。
  • 知識時效性:如果沒有最新資料更新,可能無法回答最新事件或發展。
  • 解釋性與透明性問題:內部運作像是黑盒,不容易完全理解為何模型會做出某些決策。

範例

  • GPT-3 / GPT-4
  • BLOOM
  • Claude 等等


上一篇
Day 01 Agent 拼裝車啟動!!
下一篇
Day 03 初探 AI Agent
系列文
nutc_imac_Agent拼裝車4
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言